1
Từ đếm đến ngữ cảnh: Sự phát triển của Xử lý ngôn ngữ tự nhiên
AI030Lesson 3
00:00

Sự phát triển của Xử lý ngôn ngữ tự nhiên (NLP) đại diện cho một bước chuyển cơ bản từ việc xem ngôn ngữ như các ký hiệu rời rạc, riêng biệt sang việc ánh xạ chúng vào không gian vector liên tục, đa chiều. Chúng ta đã tiến xa khỏi các biểu diễn đơn giản biểu diễn dựa trên đặc trưng đến những bản đồ ngữ nghĩa sâu sắc.

TF-IDF (Thưa thớt)Số chiều = Kích thước từ vựngWord2Vec (Phân tán)VuaNữ hoàngTáoSố chiều = Đặc trưng tiềm ẩn

Sự thay đổi trong cách biểu diễn

  • Thời kỳ Thống kê (Thưa thớt): NLP sơ khai dựa vào thuật toán TF-IDF. Mặc dù hiệu quả với truy xuất thông tin, nó lại bị ảnh hưởng bởi "cái ác của độ thưa thớt." Trong hệ thống TF-IDF, các từ "Bác sĩ" và "Bác sĩ" là các vector vuông góc—về mặt toán học, chúng hoàn toàn không có mối quan hệ nào.
  • Cuộc cách mạng Phân tán (Mạng nơ-ron ngôn ngữ & Word2Vec): Các mô hình ngôn ngữ mạng nơ-ron đã giới thiệu các vector đậm đặc. Word2Vec (Skip-gram/CBOW) học được rằng những từ xuất hiện trong cùng một ngữ cảnh thì nên là hàng xóm về mặt không gian.
  • Thống kê Toàn cục (GloVe): Các vector toàn cục cầu nối khoảng cách bằng cách phân tích sự đồng xuất hiện toàn bộ trong toàn bộ văn bản, đảm bảo khoảng cách phản ánh sự tương tự ngữ nghĩa về mặt toán học.
Suy nghĩ sâu sắc
Sự chuyển đổi từ việc đếm số lần xuất hiện sang dự đoán ngữ cảnh giúp mô hình nắm bắt được sắc thái tinh tế. Khái niệm "biểu diễn phân tán" này có nghĩa là ý nghĩa của một từ duy nhất được phân bố qua hàng trăm chiều vector, mỗi chiều có thể đại diện cho một đặc trưng ngữ nghĩa tiềm ẩn như giới tính, hoàng gia hoặc ngữ cảnh y khoa.